Présentation

Camille Fernandes, 24 ans, est actuellement étudiante en Master 1 Traitement Automatique des Langues à l'Université Sorbonne Nouvelle Paris 3. Après une licence en linguistique, elle a poursuivi son parcours en Master Recherche en Phonétique et Phonologie. Pendant ces deux années d'études, elle a axé son travail de recherche autour de la question de l'acoustique du langage adressé à l'enfant pendant la période du babillage. Suite à cette formation, elle s'est intéressée à la robotique et a participé à un groupe de travail pour l'amélioration d'un robot d'accompagnement des enfants autistes.
Travaillant actuellement au sein d'un lycée basé sur le principe d'une pédagogie adaptée à l'élève et ouvert aux pédagogies innovantes, Camille s'est donc dirigée sur une formation lui permettant d'acquérir des techniques d'analyses automatisées.

Camille

Sujet

Aujourd'hui, l'essor des nouvelles technologies permet de constatr que de plus en plus d'articles traitent de l'actualité technologique. Or, dans les discussions quotidiennes que nous pouvons avoir avec notre entourage sur ces sujets, beaucoup d'a priori peuvent être entendus, comme par exemple :

"De toute façon, un jour, les robots prendront la place de l'homme. A vouloir développer l'intelligence des ordinateurs comme la nôtre, l'intelligence artificielle leur permettra de nous contrôler" (homme d'une trentaine d'années)

ou encore :

"l'intelligence artificielle c'est l'avenir. on peut dévlopper de nouveaux programmes, ou mêmes des robots capables de nous compléter techniquement là où notre corps nous pose des barrières" (femme d'une cinquantaine d'années, à propos du développement de programmes intelligents).

Si l'on résume, l'intelligence artificielle serait donc soit la fin de l'homme, soit son avenir. En soi, ce sont des modes de pensées un peu réducteur.
Ainsi, à l'image d'un biologiste étudiant le fonctionnement cellulaire d'un corps, le linguiste va être capable d'étudier la réalité de la vie des mots pour ensuite en expliquer (ou contredire) certaines idées reçues entretenues dans certaines de nos discussions au quotidien. Afin de comprendre comment l'intelligence artificielle est réellement représentée dans les médias web que nous lisons régulièrement, nous avons réalisé (dans le cadre du cours de M. Fleury et M. Daube), une étude textométrique rapide afin de voir si nos "préjugés" pourraient être conditionnés par nos lectures

Nous avons ainsi constitué un corpus anglais et français, pour comprendre la vie linguistique de l'intelligence artificielle sur le web.

Analyses

La réalisation de ce travail a été menée en deux étapes :

  1. Constitution du corpus
  2. Analyse linguistique

1.Constitution du corpus

Pour la construction du corpus, les mots “intelligence artificielle” (en français) et “artificial intelligence” (en anglais) ont été recherchés via le moteur de recherche Google. Pour chaque langue ont ainsi été sélectionné les 50 premiers résultats considérés comme les plus pertinents selon Google. Pour chaque langue, un fichier .txt a été constitué sur Notepad ++, regroupant les 50 URLs d’une langue. Une fois les corpus de base constitués, nous avons concaténé (avec le logiciel Concat) les fichiers de chaque langue, nettoyés et aspirés ceux-ci. Les corpus ont ensuite été balisé afin de pouvoir les analyser plus facilement. Chaque fichier langue est au départ un fichier DUMP (c’est-à-dire contenant tout ce que contiennent les pages web). Nous avons souhaité obtenir également des fichiers ne contenant que les contextes contenant les mots que nous recherchons.

Les Fichiers contextes ont été obtenus avec ce script (bash sous unix)

Le fichier DUMP de l’anglais est disponible ici et celui du français ici.

Le fichier Contexte de l’anglais est disponible ici et celui du français ici.

2. Analyse linguistique

Après la récupération de nos fichiers, nous avons réalisé une analyse textométrique à l’aide de deux logiciels : Trameur et AntConc. L’objectif étant de comprendre quel était le contexte réel d’utilisation de nos mots cibles.

Pour l’anglais : Les premiers résultats que nous pouvons faire ressortir lors du passage de nos fichier sur le Trameur, sont schématiser de cette façon :

trameur anglais

Parmi les cooccurences d’”artificial intelligence” dans notre corpus, les mots revenant souvent sont “digital”,”robotics”/”Robotics”, et “Lab” pour laboratory. Lorsque nous regardons séparément les fichiers DUMP et contexte, nous constatons notamment pour le mot ‘robotics’ que le rang en termes d’occurrences sur le fichier est différent. Pour le fichier DUMP ci-dessous, nous pouvons voir que le rang d’apparition du mot est 217 et qu’il ne fait pas partie des mots les plus fréquents.

image dump anglais

En revanche, lorsque l’on élimine ce qui nous est inutile pour notre analyse et que nous gardons uniquement les contextes d’apparitions de nos mots cibles, nous pouvons constater que “robotics” est en réalité très présent dans l’entourage de “artificial intelligence” puisque son rang est 23, et donc très proche des mots cibles

image contexte anglais

Ainsi, en anglais, il est assez juste de dire que le sujet de l’intelligence artificielle est affiliée très souvent au sujet de la robotique. Dans la culture anglo-saxonne, il semble ainsi y avoir un lien fort entre les deux sujets

Pour le français : Si nous partons de l’idée que l’anglais met en lien l’intelligence artificielle et la robotique dans les articles sur internet, il serait logique de penser que le français fait le même pont entre les deux sujets.Lorsque nous lançons les fichiers sur le Trameur, nous constatons que la représentation arborée de nos fichiers est beaucoup plus vaste que celle de l’anglais. Et contrairement à celle-ci, le français ne présente pas du tout le mot “robotique”, mais plutôt “applis”, “communication”, “transports”, “logiciels”, “progresser”, “experts”, “automatisation”, “système”.

trameur francais

Il serait ainsi assez pertinent de penser qu’en français, nous relions l’intelligence artificielle à des sujets beaucoup plus divers qu’en anglais. Or, lorsque nous lançons une analyse sur le fichier DUMP avec AntConc, nous constatons que le résultat de cooccurrences présente un rang à 307 pour le mot “robotique”.

image dump cooccurrences francais

Or, lorsque l’on regarde les concordances pour les deux types, DUMP et Contexte, en français, nous pouvons constater une régularité dans la présence des mots “robots” et “robotique”.

image dump concordances francais image contexte concordances francais

Résultats

L’analyse textométrique que nous venons de présenter nous permet de faire ressortir des pistes de travail sur la vie de “l’intelligence artificielle” dans les articles sur le web. Il semblerait qu’en anglais, le lien entre l’intelligence artificielle et la robotique soit évident, ce qui pourrait expliquer un certain conditionnement social dans les échanges. Les articles “conditionneraient” quelque peu notre avis sur la question.

En revanche en français, il semblerait que même si le lien entre la robotique et l’intelligence artificielle soit récurrent, il s’avère que la presse web présente cette question dans beaucoup d’autres thématiques, même s’il y a quand même un lien privilégié avec la robotique. Cela appuierait ainsi l’idée de l’influence des lectures sur les idées reçues.

Cependant, pour avoir une idée plus précise de l’influence que ces articles pourraient avoir sur nos propres pensées, il faudrait analyser ces corpus plus en profondeur, et comparer ces résultats à une analyse d’un corpus oral de discussions dans les deux langues sur cette thématique.